1
Visão Geral e Padrão de Evolução Arquitetural
EvoClass-AI003Aula 4
00:00

Visão Geral e Padrão de Evolução Arquitetural

Passamos do sucesso fundamental do AlexNet para a era de redes profundas extremas Redes Neurais Convolucionais (CNNs). Esse deslocamento exigiu inovações arquiteturais profundas para lidar com a profundidade extrema, mantendo a estabilidade durante o treinamento. Analisaremos três arquiteturas fundamentais—VGG, GoogLeNet (Inception), e ResNet—compreendendo como cada uma resolveu aspectos diferentes do problema de escalabilidade, preparando o terreno para a interpretabilidade rigorosa do modelo mais adiante nesta lição.

1. Simplicidade Estrutural: VGG

O VGG introduziu o paradigma de maximizar a profundidade usando tamanhos de kernel extremamente uniformes e pequenos (exclusivamente filtros convolucionais 3x3empilhados). Embora computacionalmente caro, sua uniformidade estrutural provou que a profundidade bruta, obtida por mínima variação arquitetural, foi um fator primário para ganhos de desempenho, consolidando a importância dos campos receptivos pequenos.

2. Eficiência Computacional: GoogLeNet (Inception)

O GoogLeNet contrapôs o alto custo computacional do VGG priorizando eficiência e extração de características em múltiplas escalas. A inovação central é o Módulo Inception, que realiza convoluções paralelas (1x1, 3x3, 5x5) e pooling. Criticamente, utiliza convoluções 1x1 como estreitospara reduzir drasticamente a contagem de parâmetros e a complexidade computacional antes das operações dispendiosas.

Desafio Engenharia Fundamental
Questão 1
Qual arquitetura enfatizou a uniformidade estrutural usando principalmente filtros 3x3 para maximizar a profundidade?
AlexNet
VGG
GoogLeNet
ResNet
Questão 2
A convolução 1x1 é principalmente usada no Módulo Inception para qual propósito fundamental?
Aumentar a resolução do mapa de características
Ativação não linear
Redução de dimensionalidade (estreito)
Atenção espacial
Desafio Crítico: Gradientes Desaparecidos
Soluções de Engenharia para Otimização
Explique como o mapeamento de identidade do ResNet aborda fundamentalmente o problema dos gradientes desaparecidos além de técnicas como inicialização aprimorada de pesos ou Normalização em Lotes.
Q1
Descreva o mecanismo pelo qual a conexão skip estabiliza o fluxo de gradiente durante a retropropagação.
Solução:
A conexão skip introduz um termo de identidade ($+x$) na saída, criando um termo aditivo no caminho derivativo ($\frac{\partial Loss}{\partial H} = \frac{\partial Loss}{\partial F} + 1$). Esse termo garante um caminho direto para o sinal de gradiente fluir para trás, garantindo que os pesos acima recebam um sinal de gradiente não nulo e útil, independentemente de quão pequenos sejam os gradientes através da função residual $F(x)$.